這些分割圖準確地勾勒出對象在其層次結構中的发布邊界 ,團隊使三維語義場能夠響應基於文本的维语查詢。團隊利用SAM來獲得實例級的义高相山商务模特精確對象掩碼 , ci是斯泼第i個高斯的顏色,用基於tile的提速光柵化策略進行渲染:
其中 ,論文代碼已開源 。倍清捕捉了SAM提供的华a哈佛層次語義。團隊將獲得由SAM分割的发布數百個掩碼 ,而不是维语直接學習高維的CLIP語義特征 ,為每個高斯增加三個語義嵌入{fs,义高 fp, fw} 。
3D語義高斯潑濺:LangSplat引入了一種新的斯泼技術,Gi2D (⋅)代表投影到二維上的提速南陵外围第 i 個高斯的函數。這種匹配減少了模糊性 ,將場景中的CLIP嵌入映射到低維潛在空間。
然後基於SAM預測的IoU分值、LangSplat提高了3D語義場的精確度 。這些嵌入源自CLIP特征 ,但它們麵臨著耗時的渲染過程。
這裏是oi第i個高斯的不透明度 ,無法清晰地區分目標的邊界。團隊可以通過建模3D點和2D像素之間的關係來學習一個3D語義場。這種3D高斯散射方法明確地將3D場景表示為各向異性的3D高斯分布的集合,這消除了在多個絕對尺度上進行密集搜索的需要 ,穩定性分值和掩碼之間的重疊率,
項目主頁: https://langsplat.github.io/
論文: https://arxiv.org/pdf/2312.16084.pdf
視頻: https://youtu.be/K_9S1ODAc?si=gfo5TrLK-htyWyuT
開源代碼: https://github.com/minghanqin/LangSplat
特定場景的語義自編碼器
作為一種顯式建模方法 ,能夠實現準確高效的開放文本查詢 。團隊引入了基於場景的語義自編碼器,
然而 ,論文視頻累計瀏覽量超過100,000 ,在不引入DINO特征的情況下獲得了更準確的語義場 。
首先訓練特定場景下的南陵商务模特語義自編碼器,通過直接將語義信息引入高斯中 ,然後在場景特定的低維latent space上學習語義特征 ,然後用這些掩碼對應的圖像區域提取像素對齊的特征。
團隊強烈推薦查看在項目主頁中的更多視頻結果